﻿Masteratul de Lingvistică Computațională Curs: Introducere in Lingvistica Computațională Curs 12 Abordări statistice, vectoriale și neurale Curs: Dan Cristea Seminarii & proiect: Mihaela Onofrei, Dan Cristea Methods for discriminating terms and documents After (Manning et al , 2009) Term Frequency Inverse Document Frequency • tf(t ,d ) = the frequency of a term t in a document d – how many times is t mentioned in d, usually normalised to the total number of terms – used to scale a collection of documents with respect to the occurrences of a term – however it may be confusing in appreciation of different term relevances • idf(t) = N /log(df(t)) – N = the number of documents in the collection – df(t) = the number of documents containing t at least once – idf of a frequent term is low, and of a rare term is high TF-IDF • tf-idf(t,d ) = tf(t,d ) * idf(t) – a weighting scheme that reflects how important is a word with respect to the documents contained in a corpus – used in classification, information retrieval, text mining, etc • Variations of the TF-IDF often used by search engines for scoring and ranking a document's relevance given a user query • TF-IDF can be successfully used for stop-words filtering in various subject fields including text summarization and classification Term-document matrix • An M x N matrix with M rows representing terms (dimensions) and N columns representing documents – Example: the number of occurrences of three terms (affection, jealous and gossip) in three novels: Jane Austen's Sense and Sensibility (SaS) and Pride and Prejudice (PaP) and Emily Brontë's Wuthering Heights (WH) Metode kernel în învățarea bazată de similaritate ă După (Ionescu, 2018) Applications that use vectors • Vectors can be used as features in a variety of applications: – information retrieval (Manning et al , 2009), – document classification (Sebastiani, 2002), – question answering (Tellex et al , 2003), – named entity recognition (Turian et al , 2010), – parsing (Socher et al , 2013) Modelul spațiului vectorial • Reprezentarea unei mulțimi de obiecte ca vectori este cunoscută sub numele de modelul spațiului vectorial (vector space model) dimensiunile sunt caracteristici (cuvinte, similarități între un eșantion de test și unul de antrenare, TF-IDF etc ) cererile însele sunt reprezentate ca vectori Din (Verberne, 2018) Similaritate bazată pe produs scalar • Un vector V(d ) – derivat dintr-un obiect d , cu câte o componentă pentru fiecare caracteristică – valuarea unei componente este un număr, sau scorul de ponderare tf-idf, sau orice altceva Cum putem aprecia similaritatea dintre două objecte în acest spațiu vectorial? – 1 a tentativă: să calculăm lungimea vectorului diferență dintre vectorii celor două obiecte… criticabilă! – o soluție mai bună: similaritatea cosinus: Proprietățile produsului scalar (intern) : V x V à R are proprietățile: – simetrie: = – linearitate: = a ; = + – definit pozitiv: ³ 0; = 0 ó x = 0 unde xT este transpusa lui x Calculând similaritatea Produs scalar: Lungime euclideană: Vectori unitari: și Similaritate: Similaritate = cosinusul unghiului dintre cele două obiecte Spațiul produsului intern (spațiul Hilbert) • Un spațiu vectorial X peste mulțimea numerelor reale R este un spațiu al produsului intern, dacă există o funcție (mapare) bilineară (lineară în fiecare argument), simetrică și cu valori reale , care satisface: ³ 0, pentru orice x Î X – funcția se numește produs intern sau produs scalar – spațiul produsului intern este uneori numit spațiu Hilbert ; R m este un spațiu Hilbert ( ) Motivația utilizării kernelilor: scufundarea (transpunerea) trăsăturilor (embedding) Patternuri neliniare sunt convertite în liniare Funcția 𝚽 încorporează datele unui spațiu de caracteristici în care relațiile neliniare apar liniare Metodele de învățare automată pot detecta cu ușurință astfel de relații liniare Kerneluri în spații de produs intern O metodă kernel face o mapare într-un spațiu al scufundărilor sau al caracteristicilor O mapare de scufundare (embedding) este o funcție: unde F este un spațiu al produsului intern aplicat caracteristicilor Un kernel este o funcție k care, pentru orice x, z Î X satisface: alegerea funcției de mapare fare ca scop conversia relațiilor nelineare din X în relații lineare din spațiul scufundărilor F Metode kernel • Metodele de învățare bazate pe kernel funcționează prin transpunerea datelor într-un spațiu Hilbert și prin căutarea unor relații liniare în acel spațiu, folosind un algoritm de învățare – pentru a transpune date într-un spațiu Hilbert: indiferent de datele de intrare, se transformă reprezentarea într-un spațiu multidimensional (> 3 dimensiuni) – transpunerea se face implicit, prin specificarea produsului intern între fiecare pereche de puncte, mai degrabă decât prin precizarea explicită a coordonatelor De ce e importantă o funcție kernel? • Metodele kernel (prin funcții kernel) oferă puterea de a gestiona în mod natural datele de intrare care nu sunt sub formă de vectori numerici, cum ar fi șiruri de caractere, șiruri de cuvinte, imagini sau chiar fișiere video și audio • Funcția kernel captează noțiunea intuitivă de asemănare între obiecte dintr-un domeniu specific și poate fi orice funcție definită pe domeniul respectiv care este simetrică și pozitiv definită – în biologie computațională și lingvistică computațională (Shawe-Taylor and Cristianini, 2004) – în interpretarea imaginilor (Lazebnik et al , 2006; Grauman and Darrell, 2005) Matricea kernel • Fiind dat un set de vectori {x1,… xn} și o funcție kernel k folosită pentru a evalua produsele scalare într-un spațiu al caracteristicilor, cu funcția de mapare a caracteristicilor f, matricea kernel este definită ca matricea n xnKcu intrările date de Kij= = k(xi, xj) • O funcție k : X´ Xà R care este fie continuă, fie are un domeniu finit, poate fi descompusă de o funcție de mapare a caracteristicilor f într-un spațiu Hilbert Faplicat ambelor argumente, urmat de evaluarea produsului intern în Fdupă cum urmează: k(x, z) = , dacă și numai dacă este pozitiv semi-definită Exemple și proprietăți de funcții kernel • Kernel liniar: obținut prin calculul produsului intern al doi vectori Funcția de mapare în acest caz este f(x) = x – Exemplu: dacă x = (1, 2, 4, 1) și z = (5, 1, 2, 3) sunt doi vectori în R4, atunci k(x, z) = = 1 5 + 2 1 + 4 2 + 1 3 = 18 • Fie k1 și k2 două kerneluri peste X ´ X, X Í , a Î R+, f( ) – o funcție reală pe X și M – o matrice pozitiv semi-definită și simetrică n x n Atunci, următoarele funcții sunt, de asemenea, kernel-uri: k(x, z) = k1(x, z) + k2(x, z) k(x, z) = a k1(x, z) A se vedea (Ionescu, 2018), pag 44-45, k(x, z) = k1(x, y) k2(y, z) pentru mai multe exemple de funcții kernel k(x, z) = f(x) f(z) k(x, z) = xT M z M se numește pozitiv semi-definită dacă xT M x ³ 0 pentru orice x in Rn Clasificatori Kernel • În problemele de clasificare binară, algoritmii de învățare bazați pe kernel caută o funcție discriminantă, care atribuie +1 exemplelor care aparțin unei clase și -1 exemplelor care aparțin celeilalte clase • O funcție liniară: Normalizare Kernel • Fiind dat un kernel k(x; z) care corespunde funcției de mapare f, kernelul normatizat ^k(x; z) corespunde funcției de mapare dată de: Normalizarea ajută la îmbunătățirea performanțelor algoritmilor de învățare automată Exemple: – normalizarea face ca valorile caracteristicilor din date să aibă media zero și variația sub-unitară – se împarte fiecare componentă cu rădăcina pătrată a produsului celor două componente diagonale corespunzătoare: O scurtă revedere a rețelelor neurale După: (Nielsen, 2015) Rețele neurale în IA • Inspirate din medicină, unde ar trebui referite drept rețele neuronale • Neuronul artificial – numit perceptron – concept introdus în anii 1950 și 1960 (de către Frank Rosenblatt, inspirat de o lucrare anterioară a lui Warren McCulloch și Walter Pitts) Rețele cu sau fără feedback • Rețele neurale în care ieșirea dintr-un strat este utilizată ca intrare în stratul următor => rețele neurale feedforward – nu există bucle în rețea - informațiile sunt întotdeauna alimentate către înainte, nu și către înapoi • Dacă ieșirea alimentează noduri interioare => rețele recurente O altă manieră de a scrie ecuația rețelei = w x (produs scalar între doi vectori: de ponderi și de intrări) Notând b = - threshold (prag) => Cum poate o rețea neurală să învețe? • O mică schimbare a ponderii unui arc din rețea – poate provoca comutarea completă a ieșirii, de ex din 0 în 1 – dacă o anumită ieșire acum ar fi corectată în sensul în care dorim, e posibil însă ca restul intrărilor să fie drastic afectate, într-un mod greu de controlat => ne trebuie o manieră prin care să modificăm treptat ponderile și polaritățile, astfel încât rețeaua să se apropie de comportamentul dorit? • O rețea în care comutarea să nu fie radicală, cum e cea dată de o funcție prag Funcțiile sign, sigmoid, tanh A învăța = a minimiza o funcție de eroare (cost, obiectiv, loss) în care: – w = matricea ponderilor (weights) – b = vectorul pragurilor (biases) – n = dimensiunea intrării (lungimea lui x) – x = intrarea – y (x ) = ieșirea dorită – a(w, b, x ) = ieșirea calculată de rețea Scăderea stocastică a gradientului • În practică, numărul ponderilor și a pragurilor poate fi extrem de mare, de aceea iterarea scăderii gradientului pe fiecare dintre ele poate fi nerealistă • La fiecare pas în antrenare, se aleg aleator un număr m de intrări X1, Xm și se estimează DC doar pe baza acestora, prin medierea rezultatelor • La fiecare pass, alt eșantion Rețele neurale de adâncime Rețele multistrat (de adâncime) Perceptronii de pe nivelul 2 iau decizii prin cântărirea rezultatelor primului nivel – decizii la un nivel mai complex și mai abstract decât pe cel din primul strat – decizii și mai complexe pot fi luate de perceptronii din cel de al treilea strat – o rețea multiplă de perceptroni se poate angaja într-o decizie sofisticată Învățare de profunzime (deep learning) • Să presupunem că dorim să determinăm dacă o poză conține o față umană ori nu: A se vedea: (Goodfellow et al , 2016) Descompunem problema în subprobleme mai simple • Are imaginea un ochi în partea stângă sus? Are ea un ochi în partea dreaptă sus? Are un nas în mijloc? Are o gură jos la mijloc? Există păr deasupra? Și așa ma departe Și acestea în altele încă mai simple • Dar cum să descompui problema automat, propunând 5-10 niveluri intermediare (ascunse) de neuroni, care abordează concepte din ce în ce mai generale ImageNet and WordNet • A huge database of over 14 million images drawn from 1000 different categories • Its class coverage is exhaustive enough that it covers most types of images that one would encounter in everyday life • Organized according to the WordNet hierarchy of nouns Follow a Stanford course… At: https://www youtube com/watch?v=OQQ-W 63UgQ …or Follow an MIT course At: https://www youtube com/watch?v=0VH1Lim8gL8 Bibliografie • Goodfellow, Ian, Bengio, Yoshua and Courville, Aaron (2016) Deep Learning, MIT Press (http://www deeplearningbook org) • Grauman, Kristen and Darrell, Trevor (2005) The Pyramid Match Kernel: Discriminative Classification with Sets of Image Features In Proceedings of ICCV, volume 2, pp 1458{1465 • Ionescu, Radu Tudor (2018) Habilitation thesis Knowledge Transfer between Computer Vision, Text Mining and Computational Biology: New Chapters, University of Bucharest • Lazebnik, Svetlana, Schmid, Cordelia, and Ponce, Jean (2006) Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories In Proceedings of CVPR, volume 2, pp 2169{2178, Washington, IEEE Computer Society • Manning, C D and Socher, R (2017) CS224N: Natural language processing with deep learning Stanford University School of Engineering https://www youtube com/watch?v=OQQ-W 63UgQ • Manning, Christopher D , Raghavan, Prabhakar and Schütze, Hinrich (2009) An Introduction to Information Retrieval, Cambridge UP, https://nlp stanford edu/IR-book/pdf/irbookonlinereading pdf • Nielsen, Michael A (2015) Neural networks and deep learning, Determination Press http://neuralnetworksanddeeplearning com/chap1 html • Shawe-Taylor, John and Cristianini, Nello (2004) Kernel Methods for Pattern Analysis, Cambridge University Press • Sebastiani, Fabrizio (2002) Machine learning in automated text categorization ACM Computing Surveys, 34:1–47 • Socher, Richard, Bauer, John, Manning, Christopher D and Ng, Andrew Y (2013) Parsing With Compositional Vector Grammars In ACL • Verberne, Suzan (2018) Word2Vec Tutorial, Leiden Univ , March https://twitter com/suzan/status/977158060371316736 • Tellex, Stefanie, Katz, Boris, Lin, Jimmy, Fernandes, Aaron and Marton, Gregory (2003) Quantitative evaluation of passage retrieval algorithms for question answering In Proceedings of the SIGIR Conference on Research and Development in Informaion Retrieval • Turian, Joseph, Ratinov, Lev and Bengio, Yoshua (2010) Word representations: a simple and general method for semi-supervised learning In Proceedings of ACL, pages 384–394 